Att säkert navigera AI och lagen

[ This article was published at Folq ]

Hej,

Idag tänkte jag prata om hur du kan komma igång med AI på bolag, men på ett säkert sätt som även följer befintlig lagstiftning.

Du som läsare har förmodligen använt ChatGPT eller andra former av AI (generativ sådan) själv. Du blev säkert förvånad över hur kraftfulla dessa verktyg är, och hur skönt det är att se en AI-assistent göra jobb man inte vill göra själv på sekunder. Speciellt om du kanske jobbar hemifrån… men vi ska hålla just den grejen hemlig för chefen ett tag till. Men kom ihåg:

“Today’s AI is the worst you will ever use.” - David Friedman

AI är en extremt transformativ teknologi. Du ser redan säkert massor av processer och uppgifter hos er som bara kan… försvinna egentligen? På den resan har vi bara börjat, men vi ska inte prata om det nu. Vi ska prata om det du redan har det lite på känn – det här med vad som behöver vara på plats för att integrera AI på ett lyckat sätt. För det måste man förstå vissa viktiga element som lätt kan bli showstoppers på olika nivåer: lagarna, EU-compliance, skickande av känslig data/IP och andra olika risker man utsätter sig för.

Idag är detta total vilda västern, och det är många tolkningar som råder. Vi ska få till det här under ett paraply. Jag har låtit en senior advokat med specialisering Tech och AI-juridik gå igenom den här artikeln för att granska att texten kring lagarna är korrekt. Jag själv är datavetare med inriktning AI och data mining, och har sysslat med språkteknologi sedan 2016, vilket kanske ger mig lite unikt och även oroat perspektiv med vilket jag önskar lyfta fram vissa risker inte alla tänker på.

Idag ska vi gå igenom:

Lagen: GDPR

Om du vill använda AI för någon form av persondata så måste du ta hänsyn till GDPR. I huvudsak kan man summera relevanta delar av GDPR såhär, och det gäller genom hela EU:

  • Persondata måste följa integritetsvänliga principer. All databehandling måste vara säker. Du måste vara öppen och transparent kring hur du använder data; personer får till och med begära och fråga hur deras data används. Du måste ha dokumentation kring din compliance av GDPR. Om detta innefattar att lotsa iväg personers data till tredje part för AI-magi lite hursom så kan du behöva stå till svars för det. Inte bara är det inte särskilt integritetsvänligt, folk som begär ut dina processer kan bli sura och klagomål kan landa hos IMY.
  • Bolag är ansvariga för deras leverantörer. Du kan inte skylla på någon annan om en systemleverantör ställer till det i din leverantörskedja och data läcker. Alla dessa AI-lösningar och bolag som dyker upp bör ni vara vaksamma på; inte bara för de kan slarva själva men även de skulle kunna begå misstag med urvalet kring egna leverantörer åt dem som slarvar med säkerhet eller lag. En clown (🤡) i kedjan är allt som krävs. Startups kan ta genvägar, även om de vill väl.
  • Användande av persondata måste vara lagligt; det förutsätter jag att ni redan tänker på när ni driver bolag. Ni måste ha skäl till varför ni har den, ni får inte spara data “just in case”.
  • Dataintrång måste rapporteras inom 72h; det är krav på anmälan till tillsynsmyndigheten (t.ex. IMY) som gäller inom 72 h om du blivit utsatt för intrång. Det finns däremot inget automatiskt krav på att göra ett pressmeddelande till allmänheten enligt GDPR. Däremot, om du inte gör det för att rädda ditt förtroende, så blir skadan förmodligen värre när det framkommer senare – antingen hos IMY eller för att data finns i det vilda.

Om någon i din kedja misslyckas med att sköta sig är det alltså möjligt att även du är skyldig, och det måste rapporteras inom 72 timmar. Behandlingen måste vara säker, och följa regler. Man kan läsa mer om GDPR här.

Lagen: Schrems-II & data till icke-EU-land

Schrems-II är ett domslut som gör det knepigt att skicka data till USA. Bakgrunden var att USA’s lagar var skrivna på ett sådant sätt att USA’s regering fick titta på icke-medborgares data. Det var viss lagstiftning och möjligheten för olika typer av presidentordrar som var problematiska. Då EU-medborgare ofta är USA-icke-medborgare kunde de tekniskt sett spionera på EU-medborgares data och detta bröt mot EU’s dataskyddslagar. Resultatet blev att ECJ invaliderade EU-U.S. Privacy Shield. Man kom fram till att man inte får skicka känslig data till USA. Detta orsakade stök för många – användande av de stora molnjättarna (AWS, Google Cloud, Azure m. fl.) var helt i limbo.

IMY har en sida som den 13e oktober inte var helt uppdaterad som berör ämnet kring dataöverföring till tredje land.

Där står det att skicka data utanför EU är endast tillåtna under vissa förutsättningar. Det viktigaste att veta här är att undantag görs nämligen till vissa länder där man anser att datan är adekvat skyddad.

Det här är lite av ett “rabbit hole” i sig, så håll ut, men utöver att ett land har en adekvat skyddsnivå kan en överföring också vara tillåten om andra lämpliga åtgärder vidtas, t.ex. användning av ”Standard Contractual Clauses” och ”Binding Corporate Rules” som är andra mekanismer som kan göra överföring laglig. Som tur är så blir den läsgirige räddad, du kan hoppa in rätt in i Artikel 46 i GDPR! Otroligt spännande och roligt!

Vad som är nytt men inte står där är att EU-kommissionen har sedan i juli godkänt att “USA har adekvat skyddsnivå igen”. Det står med lite vagt om detta beslut kring USA på IMY’s andra sida om länder med adekvat skyddsnivå. När jag talade med en jurist på IMY nyligen så belyste de själva att det var lite luddigt att hitta rätt information och bad om ursäkt för att de ej har hunnit uppdatera. Nåväl.

Det här med adekvat skyddsnivå betyder att: om man kan hitta er Amerikanska leverantör på den här listan anser EU-kommissionen att leverantören är laglig för hantering av viss data. Sök och håll utkick för “Covered Data” och titta efter både HR + Non-HR. Idag så finns ej OpenAI där. Jag tänker inte vara fullständigt kategorisk här och säga att använda ChatGPT via OpenAI’s API med persondata är olagligt, utan jag kommer vara “jurist-garderad” och säga att man alltid måste tänka till innan man använder sig av persondata i de tjänsterna för att inte riskera att bryta mot GDPR:s regler om hantering av data utanför EU/EES med rådande lagstiftning. Varken för er, startupen, eller deras leverantörer. Samma gäller Anthropic. Och Cohere.

En liten not:

Lagen åsido, att se knappen “Self-certify” på DataPrivacyFrameworks bör sticka lite i ögonen. Man kan alltså självutnämna sig som skötsam data-aktör och så får bolag i EU skicka data till dig. Det känns lite “sådär”. Tänk om man kunde gå till banken och få bolån för att jag själv-certifierar mig själv som en trevlig tjomme. Det kan jag inte göra med mitt bolån, men jag kan tydligen göra det med tillståndet att få all form av känslig data skickad till mig från EU om jag är ett amerikanskt bolag. Smidigt!

Incitamenten åsido, den här lagstiftningen och vilka som är självcertade kan ändras när som helst, och då faller behandlingen av din data hos dig eller aktörer i limbo. Det är alltså inte särskilt robust. Om du är beroende av denna aktör för centrala funktioner i din produkt så har utsätts du direkt för strul. Och om ändringar sker, är det inte nödvändigtvis på grund av en lyckad själv-certifiering, det kan lika gå åt andra hållet. Italien blockerade nämligen ChatGPT tillfälligt, något som fick OpenAI att ändra sin datapolicy, och i skrivande stund är OpenAI under granskning av polska “IMY”.

EU AI Act - nu och sen

Även EU diskuterar AI, och det som är på bordet är “EU AI Act” – det första regleringsförsöket till AI. Kom ihåg att det är ett förslag, vilket betyder att det tar ganska lång tid innan det blir riktig lag.

Summerat så kan man hitta matnyttig info här. Det viktigaste som då gäller compliance kring generativ AI i framtiden:

  • Disclosing that the content was generated by AI
  • Designing the model to prevent it from generating illegal content
  • Publishing summaries of copyrighted data used for training

Det finns massor av annat man inte får göra heller med annan typ av AI, men det är lite “out of scope” för denna text.

Från deras Compliance FAQ står det såhär:

When does the EU AI Act come into effect? The European Commission now supports the Council of the European Union and the European Parliament in concluding inter-institutional negotiations (trilogue) – the last phase of negotiations before the EU AI Act is passed. This is expected to be finished by the end of 2023 or early 2024. Once the law is officially passed, there will be an implementation period of two to three years depending on how the negotiations between the EU institutions unfold. This means that the AI Act will likely be enforced in 2026 or later. In addition, during the implementation period, the European standards bodies are expected to develop standards for the AI Act.

Idag är EU AI Act tandlös, eftersom den inte är lag ännu. Det är nästan inga “foundational LLM creators” (undantag Meta’s LLama och andra Open-Source-modeller) som publicerar vad de använt för träningsdata. De som tränar modeller har nämligen mycket att förlora på att avslöja sin egna “secret sauce”, och det kommer nog forsätta se ut så tills de måste på grund av att det är lag, alltså 2026. Då kommer alla dagens modeller vara irrelevanta, för det kommer finnas de som är mycket bättre. Du som användare av AI behöver bara säga att det är genererad content och att inte träna egna modeller som genererar innehåll som bryter mot andra, befintliga lagar.

Alltså är det rätt så fritt idag: det finns idag ingen riktig showstopper från “EU AI Act”, och det blir inte ens rörigt för de som skapar modeller förrän 2026. Här finns då inget bättre råd än att man får tänka själv: kom ihåg att modellerna blir det man stoppar in, så vem är det som har stoppat in vad egentligen? Vissa modeller uttrycker sig på sätt som kan avvika en del från vad jag närmast kan kalla “värdslig consensus”. Statligt sponsrade LLM:er, från tex UAE, genererar det här svaret kring mänskliga rättigheter. Kina börjar också släppa modeller, där detaljer om training data är “TODO”. Nu kanske du inte sitter och frågar din AI om du ska begå en abort eller ej, eller om du borde tycka att Taiwan är ett land, men kom ihåg att svaret du får från AI:n baseras på träningsdatan.

Vad bolag bör tänka på kring säkerhet

Precis som att denna teknologi kan hjälpa just dig att analysera din eller ditt företags data på ett magiskt vis, så kan de hjälpa någon annan att göra samma sak. Fundera på det lite. Det är ju intressant och kul om det är någon annans data, eller offentlig data. Men öppnar du upp denna Pandora’s box till din eller ditt bolags data kan ju en antagonistisk aktör potentiellt fråga samma modeller vad det är jag inte ska veta om DIG eller om DITT BOLAG.

Whoops! Hoppas polletten trillade ner.

  • “Hej Venom! Här är alla mail och filer i ett företag. Vad är det för skandaler som du kan hitta?”
  • “Leta också efter vad som kan se ut som lösenord och gissa till vad”
  • “Vilka är de största organisatoriska risker du ser hos bolaget efter att ha gått igenom alla mail?”
  • “Vilka anställda pratar skit om andra anställda?”
  • “Vad är den mest värdefulla IP:n, och var finns den?”
  • “Vad är det för viktiga interna beslut som har tagits, som är hemliga för allmänheten?”

Men tänk även vad vissa bolag, t.ex techjättarna kan göra med din privata data

  • “Här är en persons alla chattmeddelanden från Facebook Messenger. Jag vill ha en summering av alla hobbies och intressen så jag kan sälja infon till annonsörer.”
  • “Jag vill ha en veckorapport kring vilka den pratat med om olika saker och en psykologisk analys av humöret”
  • “Jag vill att du summerar vad personen har för politisk läggning”

Eller utpressaren

  • “Sammanställ gärna alla hemligheter av känslig typ personen har valt att berätta för andra i text.”
  • “Jag vill att du läser igenom allt och kommer på ett sätt att utpressa personen”

Det är inte svårare än att ha tillgång data och skriva prompts för att vara en bad actor i framtiden. Vi utvecklare behöver inte direkt “klippa och klistra” in i ett fönster som ChatGPT med all data, utan vi snurrar upp 10000 AI’s som får några dokument var att gå igenom på knappt en minut (idag) och ber dem ange resultatet i strukturerade format för vidare analys. Precis som “ChatGPT” kan summera en text kan den läsa igenom och summera allt det där andra. Saknar du fantasin kan du ju be AI:n att gå igenom datan och fråga vad man borde göra med just denna data för att ställa till med mest skada. Det spelar heller ingen roll vilket land dessa “bad actors” sitter i – givet tid kommer de här modellerna översätta än de bästa tolkarna i världen och till och med fixa stavfelen och formatteringen på köpet när de ändå är igång.

Detta gäller såklart även kod och IP. LLM:s är bra på att generera kod, något jag själv är mycket tacksam för. Däremot är det många som glömmer att man skickar bort små bitar av bolagets IP varje gång man använder ChatGPT eller GitHub Co-Pilot med proprietär kod. Du kan såklart använda dessa tjänster om du litar på dem. Tänk bara på att även om du litar på leverantören i fråga och de är certade på olika vis, om du har proprietär kod som är värd flera miljarder, som till exempel en trading-algoritm eller insider-information, så är det viktiga att anställda får lika mycket i lön hos de här leverantörerna, så de inte har incitament att kika…

Alternativ

Om man idag vill använda AI då, sett från all den här problematiken?

Microsoft och Google får man tekniskt sett använda för HR och Non-HR data enligt DataPrivacyFramework. De har heller inga incitament att ställa till med problem då de är extremt stora och båda bolagen går väldigt bra. Sen är det upp till er om ni tycker de är lämpliga från två vinklar: står dessa bolag för integritet? Samt om du är beroende av dem för din produkt eller erbjudande och compliance ändras har du problem. Tillgänglighet i olika availability zones hos dem kan dessutom ändras, en möjlig showstopper beroende på vad du använder för data och vart den helt plötsligt måste skickas. Du kan inte heller ta dig an kunder som “vill ha datan i Sverige” eller andra liknande krav.

En annan sak jag ser är att flera bolag slänger ur sig påståenden som att känslig data är “encrypted at rest” och “encrypted in transit” för att lugna ner säkerhetsproblematiken. Det är tyvärr luftigt sales-snack. Notera att det inte aldrig står fully encrypted. De måste nämligen själva kunna kryptera upp din data, för idag kan ingen göra inferens på krypterad data utan homomorphic encryption. Tyvärr är denna process idag löjligt långsam, och det skulle ta dygn att få ett enda svar från en LLM.

Om man ser det till säkerhet: det finns tyvärr bara ett sätt att garantera att datan förblir din, och alltid garantera compliance så länge du vill använda AI på känslig data: Drifta din egna AI modell istället, on-premise, eller i din dator, eller i ditt VPC hos en aktör du litar på. Skicka inte runt din data till andra, och var försiktig med startups. Det här med att drifta egen, säker AI går faktiskt att göra idag, men det marknadsförs inte av techjättarna, men man kan läsa om det i läckta dokument. Då har de ingen tjänst de kan sälja.

Du kan driva både egna kod-assistenter och chatbotar lokalt, och säkert koppla ihop med önskad data. Endast så kan du garantera att dina kunders och din data, samt din IP (speciellt kod!) förblir skyddad och säker. Håll er data bakom lås och bom. Om du gör det får du nämligen full kontroll på vad modellen gör, du är aldrig utsatt för complianceproblem, och du skickar inte din data till någon. Du använder känsligaste datan på det säkraste och integritetsvänligaste sättet. Med andra ord, du kan använda AI och sova gott. Och du kan dessutom ta dig ännu mer friheter. Eftersom du vet vad som händer “hela vägen” kan du koppla på all bolagsdata till en egen “chat-assistent” med den datan du vill att den ska kunna ha, och göra assistenten otillgänglig externt.

(Bonus) Hur många lager folie din hatt bör ha

Det här med säkerhet är faktiskt lite större än man tänker sig till en början.

Den invasiva baksidan av den här teknologin är verkligen ingenting man ska underskatta. ChatGPT är ju tränad så att den inte får hjälpa till med rackartyg… man får något vagt svar med “As an AI language model assistant, I cannot help you with blabla”, även om du behöver hjälp med att skriva en teaterpjäs där någon förolämpar någon. Det är naivt att tro att alla modeller fungerar som ChatGPT. Faktum är att du kan träna en modell att endast hålla på med rackartyg, och säga ifrån om du försöker följa lagen istället. Etik och varningssystem är skapade så leverantörer slipper bli stämda. Vissa modeller kan du be att göra vad som helst, med eller utan tillhörande data. Det finns mängder av open-source modeller på Internet, med eller utan etik och moral.

(Bonus) Två olika vägar

Jag skulle vilja avsluta med två olika outforskade vägar framåt från där du står.

Det finns den ganska snåriga vägen med att drifta en egen AI-modell lokalt när marknaden dammsugs helt på kompetens,

och sen finns den andra outforskade vägen, som kan gå jättesmidigt, men kan även leda rätt in i jävlar, hela vår organisation blev hackad, vår data är ute i det vilda, utländska hackers vet allt om våra kunder, partners, har alla mail, alla slackmeddelanden för vi samlade allt på samma ställe så allt skulle bli lätt att söka… och de kan ju till och med översätta allt, vi har 72 timmar på att berätta det, allt förtroende är borta och vi kommer få viten upp till öronen.

Tack för din uppmärksamhet och att du läste!

Väcker artikeln tankar får du gärna kontakta mig! Jag tycker den här debatten med risker kring data och IP samt privacy och integritet är jätteviktig och lätt glöms bort.